互助问答第31期:固定效应与随机效应选择和面板数据处理
样本描述:各位老师好,我的论文采用的是微观面板非平衡数据(合并了3波数据,总观测值6万左右),每波观测之间约有20%的样本不同(约10%的样本流失,10%的新样本补入),因变量是连续变量,核心自变量是虚拟变量。经由列联表分析,发现对重复观测的样本而言,约有8%左右样本的核心控制变量状态(0或1)会在两次观测时间中发生变异。加入协变量后,经过多次模型比较,均发现个体效应不容忽视,固定效应显著优于随机效应和混和估计。关于模型方法选择和样本处理方面有三个问题请教。
问题1: 由于组内变异不足,固定效应在进行组内离差时是否已经抹去了大部分核心变量的信息,导致结果实际上并不具有代表性和可信度?这种情况下是否只能抛开豪斯曼检验结果而使用随机效应?
答案1:
个体固定效应在你说的情形中确实吸收了核心自变量许多信息,可能导致核心自变量系数估计统计不显著,但这不意味着结果是错误或不可信的。此时用固定效应还是随机效应是需要权衡的。如果用固定效应,回归结果未必如你所想;如果用随机效应,回归结果可能是不一致的——这是更严重的问题,即使结果显著,也不可信。我个人的建议是:继续使用固定效应模型,然后多看一些异质性。虽然平均意义上系数不显著,但可能对某些特定群体是显著的。
问题2: 由于这一核心虚拟变量可能存在一定样本自选择现象,如果使用倾向值得分匹配,如何结合面板数据的特征?(PS:在理论上,由于存在“前处理效应”,因而不能使用did或did-psm)
答案2:
不知道你的核心虚拟变量是怎样的变量。如果该变量是诸如“是否有工作”这种可能因时而异的变量,那便无法在面板数据架构下应用匹配方法(如果非要用匹配法,只能一年一年分开做)。如果核心虚拟变量是事先确定了的变量(比如在政策评估领域常见的“是否受到某项政策的影响”),就可能可以利用DID Matching的方法去做(也就是常说的PSM-DID)。PS:没看懂你括号里的PS说明。
问题3: 是否有必要强行构造平衡面板?(由于是微观抽样数据,理论上强行构建平衡面板似乎会造成推断有偏,但所有参考文献均是使用平衡面板。)
答案3:
个体固定效应模型并不要求面板数据是平衡面板,只要所有个体至少有两期数据即可。非平衡面板与平衡面板数据各有优劣,前者样本内生选择问题没有后者严重,但后者的跨期可比性比前者更好。理论上,当出现面板数据跨期追踪缺失时(attrition),需要检查该缺失是内生的,还是可以近似看做随机,如果是后者,那么构造平衡面板自然是最好的。
学术指导:张晓峒老师
本期解答人:中关村大街
编辑:Hollian 知我者 杨芳
统筹:芋头 易仰楠
技术:知我者
往期回顾
关于我们
如果您在计量学习和实证研究中遇到问题,请及时发到邮箱szlw58@126.com,专业委员会有30名编辑都会看,您的问题会得到及时关注!请您将问题描述清楚,任何有助于把问题描述清楚的细节都能使我们更方便地回答您的问题,提问细则参见:实证研究互助平台最新通知
如果您想成为问题解答者,在帮助他人过程中巩固自己的知识,请发邮件至szlw58@126.com(优先)或给本公众号留言或加微信793481976给群主留言,我们诚挚欢迎热心的学者和学生。具体招募信息请参见:实证研究互助平台志愿者团队招募公告
鲜活的事例更有助于提高您的研究水平,呆板的教科书让人生厌。如果您喜欢,请提出您的问题,也请转发推广!
(版权声明:本文作者拥有完整版权,所有原创文章最早发表于“论文导向计量实证群”,欢迎转发分享,全文转载请注明出处,引用及合作请留言,任何侵权行为将面临追责)